بهبود شناسایی موجودیت‌های نامدار فارسی با استفاده از کسره اضافه

Authors

  • عبدوس, محمد دانشگاه علم و صنعت ایران و آزمایشگاه پردازش و تحلیل متن شرکت آرمان رایان شریف
Abstract:

Named entity recognition is a process in which the people’s names, name of places (cities, countries, seas, etc.) and organizations (public and private companies, international institutions, etc.), date, currency and percentages in a text are identified. Named entity recognition plays an important role in many NLP tasks such as semantic role labeling, question answering, summarization, machine translation, semantic search, and relation extraction and quotation recognition systems. Named entity recognition in the Persian language is far more complex and more difficult than English. In English texts usually proper nouns begin with capital letters and this feature makes it easy to identify named entities, but this feature is absent in Persian language texts. To create a named entity recognition system, generally three methods are being used which include rule-based, machine-learning-based and hybrid methods. Each of these methods has its own advantages and disadvantages. Lack of named entity labeled data is the greatest challenge in Persian text. Because of this problem usually rule-based methods used to extract entities. In this paper firstly, the dictionary of organizations, places and people were extracted from Wikipedia. Wikipedia is one of the best sources for extracting entities in which more than 200000 Farsi-named entities are known to exist. The proposed algorithm classify each Wikipedia article title by using its categories. Each of Wikipedia titles has several categories that can be used to partially identify the named entity type. Then named entity recognition accuracy (precision) was increased using the rules. These rules can be divided into 3 categories that include morphological rules, adjacency and text patterns. The most important rules are adjacency rules. By using these rules the type of entity with the word nearby each entity (like Mr, Mrs , …) can be identified. To evaluate the system, 42000 tokens of BijanKhan corpus were manually annotated (labeled). Early F-measure was calculated 78.79 percent. In continue, named entity recognition accuracy (precision) improved using izāfe which is one of the important Persian language features and 81.94 percent for F-measure was achieved. The results showed that using izāfe in named entity recognition systems significantly increases their accuracy.  

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

شناسایی کسره اضافه در متون فارسی برای استفاده در سیستم های تبدیل متن به گفتار

این تحقیق به شناسایی کسره اضافه در متون فارسی اختصاص دارد. روشهای مورد استفاده برای شناسایی کسره اضافه باید به گونه ای باشند که بتوانند بدون محدودیت در کلیه متون مورد استفاده قرار گیرند. همچنین در هنگام تشخیص دارای سرعت مناسبی نیز باشد. برای آموزش و تست روشهای ارایه شده در این تحقیق از پیکره زبان فارسی تهیه شده توسط پژوهشگاه هوشمند علایم استفاده گردیده استکه برای بخش تست آن از 1000 متن این پیکر...

15 صفحه اول

سیستم شناسایی موجودیت های نامدار در متون فارسی

شناسایی موجودیت های نامدار در پردازش زبان طبیعی به عملیاتی گفته می شود که طی آن کلی? اسامی خاص موجود در متن و متعلّق به مقوله های معنایی مختلف، شناسایی و استخراج می گردند. در واقع، شناسایی موجودیت های نامدار عملی است که در جهت ساختار بخشیدن به متن صورت می گیرد. شناسایی موجودیت های نامدار، بطور کلی با یکی از روش های مبتنی بر قانون و یا مبتنی بر روش یادگیری ماشینی و یا بصورت ترکیبی از این دو روش ...

سامانۀ رفع ابهام معنایی از حروف اضافه در زبان فارسی با استفاده از قالب‌های معنایی

رفع ابهام معنایی از کلمات در بافت یکی از مهم‌ترین چالش‌ها در حوزۀ پردازش زبان طبیعی و زبان‌شناسی رایانشی است. در این میان حروف اضافه، به‌خصوص در زبان فارسی، در پژوهش‌های مربوط به رفع ابهام معنایی همواره نادیده انگاشته شده‌اند. ازاین‌رو، پژوهش حاضر قصد دارد با ارائۀ الگوریتمی جدید مبتنی بر قالب‌های معنایی، سامانه‌ای قاعده‌مند جهت رفع ابهام معنایی از حروف اضافه «از»، «در»، «با» و «تا» در زبان فار...

full text

بهبود کارایی پروتکلSIP در شرایط اضافه بار با استفاده از قابلیت مبتنی بر پنجره

The extent and diversity of systems provided by IP networks have made various technologies to approach integrating various types of access networks and converting to next generation network. The Session Initiation Protocol (SIP) with respect to facilities such as being in text form, end-to-end connection, independence from the type of transmitted data, and supporting various forms of transmissi...

full text

سنتز جملات فارسی با استفاده از قواعد گویشی و کسره بین کلمات

با پیشرفت چشمگیر علوم رایانه در چند دهه ی اخیر و پررنگ تر شدن نقش آن در زندگی بشر، علوم مختلفی در کنار آن بوجود آمده و رشد کرده اند. یکی از این علوم هوش مصنوعی است و خود نیز به شاخه های متعددی تقسیم می شود که یکی از آن ها پردازش زبان طبیعی است. از شاخه های پردازش زبان طبیعی می توان به تبدیل متن به گفتار اشاره کرد که بیش از پنج دهه بر روی این موضوع کار شده است. در تبدیل متن به گفتار، هدف این است...

15 صفحه اول

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 14  issue 4

pages  43- 54

publication date 2018-03

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

No Keywords

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023